雑談 2025年3月
2025/3/31
ようやくPCと戯れる生活に戻ってきたので、溜まりに溜まった分頑張って読むぞぉnomadoor.icon
2025/03/30
2025/3/27
ChatGPTの画像生成統合がなんか異様な性能してる…純粋に絵が上手いとかではなく「ほんとに指示が効く」ようになってる(漫画をコマ割りして書いたり、指示したら形を維持して角度変えてきたりと言った多彩なタスクをゼロショットで行ってる…)morisoba65536.icon なお私の垢にはまだ該当モデルが来ていない😞morisoba65536.icon
Geminiも同じように画像編集できた(ツイートで見て知った)morisoba65536.icon 確実にfidelityが上がって便利になった基素.icon
どうも独立モデルらしい、層の構造が少し違うので標準ノードの専用ノードを間に噛ませる必要がある…が、3/30時点のComfyUI最新版では上手く動かない不具合があるので3/28頃のバージョンで(これを使う場合)暫く様子見が良いか…?(ページに反映とかは安定してから考える予定)morisoba65536.icon
2025/3/26
動画生成を使うことで画像の編集タスクが色々できそう…morisoba65536.icon
2025/3/24
推奨されてるサンプラー使っても画像が安定しない感じになることが多くてモデルとの相性もあるんだろうけどサンプラー何もわからんになる(Wan2.1で動画作る時にUniPC推奨されてるがeulerでないとなぜか安定しない…)morisoba65536.icon
UniPCはCFG7とかに上げるとあかんのか…?morisoba65536.icon
2025/3/22
思ってた以上に動画生成AI、拡散モデルのパラメータ数と学習データ数でぶん殴る手法がメインになってますね…(ボーンとか持たせる方向じゃないんだってなってる)morisoba65536.icon
最近ComfyUIに実装されているFP8 scaledをレイヤー見てみたらどうやら各waitレイヤーの前にscale_weightというFP32の単一の値レイヤー?があって、これを使ってFP8waitレイヤーの値の補正をして擬似的にFP32(実精度でBF16よりちょい下?)程度に調整しているようだ。morisoba65536.icon
学習にも使える点はFP8 scaledの利点か?
2025/3/19
llmがキャリブレーションデータを使った量子化で性能をなるべく落とさず量子化できてるので画像生成でもできないかなーと複数のllmに聞いたところTextモデルと違って画像生成だとキャリブレーション用のデータがたくさんの種類必要でかなり難しそうな感じ…morisoba65536.icon 多分画像生成で出てくる量子化がほぼggufかbitsandbytes nf4の2択なのはこの2つがキャリブレーションデータ不要なのが大きいようだ(厳密には ggufはキャリブレーションデータを使うこともできるが) LLM界隈でもgguf形式は結構人気bsahd.icon
おそらくllama.cppらへんに影響されてる
これに関してはLLM界隈の技術を(Fluxあたりからパラメータがデカくなりすぎて)輸入した、が近そうな感じ(12Bでも3060 12GBでも基本的に足が出るので…) 2025/3/15
ComfyUIをEasyInstaller各種とかで入れたけど他のに移行したい(特に代替UIとしては使いやすいSwarmUI等)時に移行する手順を最近多重に移行してるのでどこかにまとめたい気持ちmorisoba65536.icon ちょっとした注意点としてはgguf等の「vaeやclip、TextEncoderが分離してる拡散モデル本体」はunetフォルダに入れる必要がある(checkpointフォルダは統合モデルのみ)のが初見でハマりやすい罠
エラー起きてもイージーインストーラーのせいなのかComfyUIのせいなのか分かんないので、あんま好きでないですね…nomadoor.icon
ComfyUIしか使わないなら、バニラが一番!
モデルとか出るときいっぺんに来過ぎでここへの記載も全然間にあって無い
2025/3/14
2025/3/12
SageAttention+TeaCacheの組み合わせだとWan2.1の30ステップ(静止画)がSDXLみたいな速度で動いてワロタmorisoba65536.icon あとついでに検証した感じwan2.1がかける文字数は"sushi tabe tai"くらいまでっぽい(長くなると普通に単語をガン無視し始める)
Flux.1だと割と長文ぶっ込めるので同じ感覚だと戸惑う
2025/3/10
マスコット( mass CoT )()wogikaze.icon
2025/3/8
なぜかはしらんけどホントに「llmの話題出るときはllmが大量に出てくる」「画像関連の話題が出てきたときは画像関連のモデルがやたら出てくる」みたいな感じで狙ったかのようにタイミング被るわね…morisoba65536.icon
2025/3/6
モデルサイズ的に家庭向けの良い選択肢がでてきたか、と思ったが(TextEncoderがやたらデカいのと)トレーニング(モデル構造の癖が強いらしい)や量子化で中々苦戦されてるようだ…
Flux.1は蒸留がきつくてがっつりトレーニングした独自モデルが出づらいので、二次絵ジャンルについて暫くはSDXLが主流に居続けるかもしれない。 一つ前にFlux.1は追加学習がきつい、と書いた直後にかなり大規模にschnellを魔改造(Pruning&追加学習)されたモデルがでた。 名前がChromaと言う全く無関係の奴と被ってるんだけどページどう作ろう…morisoba65536.icon xAIとか、英単語or短い単語は衝突するのは仕方ないwogikaze.icon 2025/3/5
画像生成AI、もしかしなくてもclipと言うTextEncoderが思ってた以上にいろんな性能の足を引っ張っていた可能性が近年の色んなモデルを見てると感じられる…まあStable Diffusion 1.5の時代は「家庭用ハードウェアで動かす」のも目的だったのであまり重たいモジュールをTextEncoderに使えなかったのもあるんだろうけど。morisoba65536.icon サーバーで動かす奴はある程度大きくてもいいから性能を追及してほしいねwogikaze.icon
かといってSDXLレベルのサイズのゲーミングPCで動かせるサイズのモデルも作ってほしい
2025/3/3
一応SD1.5と同じようなシンプルなworkflowで生成できる方法も用意してくれてるので、基本そっちしか使わないnomadoor.icon
いじれるパラメータ無限にあるけど、結局大きく絵に関係するのモデルとプロンプトとシードなので、他はあんまりこだわってると時間が足りない。というか次の技術革新がやってくる(;´・ω・)
わかりすぎる(↑全体的にはるひ.icon